Realizaremos en análisis exploratorio de datos para conocer el comportamiento de nuestas variables.
Queremos buscar outliers
df %>%
gather(-In_inf, -Alc, -Clave,-km2, -Pob, key = "var", value = "value") %>%
ggplot(aes(x = value, y = In_inf, color = Alc)) +
geom_point() +
facet_wrap(~ var, scales = "free") +
theme_bw()
df %>%
gather(-Remuneracion, -Alc, -Clave,-km2, -Pob, key = "var", value = "value") %>%
ggplot(aes(x = value, y = Remuneracion, color = Alc)) +
geom_point() +
facet_wrap(~ var, scales = "free") +
theme_bw()
df %>%
gather(-C_ser, -Alc, -Clave,-km2, -Pob, key = "var", value = "value") %>%
ggplot(aes(x = value, y = C_ser, color = Alc)) +
geom_point() +
facet_wrap(~ var, scales = "free") +
theme_bw()
df %>%
gather(-Desem, -Alc, -Clave,-km2, -Pob, key = "var", value = "value") %>%
ggplot(aes(x = value, y = Desem, color = Alc)) +
geom_point() +
facet_wrap(~ var, scales = "free") +
theme_bw()
Revisamos los diagrama de dispersión de cada variable contra el resto y en todas encontramos outliers, sin embargo todos están relacionados a las diferencias significativas entre las observaciones, pues no son una muestra aleatoria de unidades observacionales. Comprobamos lo anterior observando el respetable índice Gini que muestra que, en efecto, el grupo de outliers es sumamente distinto al resto. Las delegaciones que presentan anomalías lo hacen para todas las variables y, a su vez, pertenecen al mismo sector económico. Estas son en particular las delegaciones Miguel Hidalgo, Cuahutemoc que tienen alta actividad economica y por otro lado Milpa Alta, la cual tiene la menor población y por lo mismo poca actividad economica.
Visualizar las correlaciones entre variabeles es útil para descartar a las que están altamente correlacionadas, pues podrían explicar los mismo y nos interesa la repetición:
Nos damos cuenta que las viarables con menos correlación son esperanza de vida, solicitudes de desempleo, casos confirmados, desempleo, personas afiliadas a servicios de salud.
ggcorr(df[,c(5,6,7,11,13,16)], label = T)
Al ver que muchas de estas variables no aprotaran variabilidad a nuestro indice, decidimos categorizar algunas variables para obtener visualizaciones que nos ayuden más.
categcolum <- function(daf,col,names)
{
v <- as.numeric(scale(daf[,col]))
n <- length(names)
dim <- length(v)
part <- 1/n
r <- c()
for (i in 1:dim)
{
if(v[i] <= -1)
r[i] <- names[1]
else
if(v[i] <= 1)
r[i] <- names[2]
else
r[i] <- names[3]
}
return(r)
}
¿Qué nivel de desempleo tiene la remuneración más baja?
p <- ggplot(df.1, aes(x=Desem, y=Remuneracion)) +
geom_boxplot()
p+ theme(axis.text.x = element_text(angle = 90))
Encontramos dos outliers para las observaciones de las delegaciones Cuahutemoc y Miguel Hidalgo, sin ambargo al revisar los datos esto sucede porque se clasificó con un desempleo medio porque está en la frontera de ser bajo. Los demás descrubiminetos son consistentes; por ejemplo, la reumeración promedio más baja es para los que tienen desempleo alto. Por lo que, podemos concluir que entre mayor sea el desempleo, menor será la remuneración.
¿Existe alguna relación entre el personal afiliado y la remuneración?
ggplot(df, aes(x=Remuneracion, y=P_af_serv, size = Pob, col=Alc)) +
geom_point(alpha=0.7)
No parace exitir relación alguna y los outliers se dan por las diferencias en niveles socioeconómicos en las delegaciones Cuahutémoc y Miguel Hidalgo.
¿Existe alguna relación entre el nivel de casos confirmados y la remuneración?
p <- ggplot(df.1, aes(x=C_Conf, y=Remuneracion)) +
geom_boxplot()
p+ theme(axis.text.x = element_text(angle = 90))
¿Están relacionadas las carencias? Parece que solo las alimenticias y las de salud, peor no las de servicios.
plot_ly(x=df$C_alim, y=df$C_sal, z=df$C_ser, type="scatter3d", mode="markers", color=df$C_alim)
¿Qué grupo de desempleo tiene más varianza en la esperanza de vida? Ahora queremos ver las observaciones de esperanza de vida para cada grupo de desempleados. Encontramos que la CDMX es una región dónde la mayoría de las delegaciones tienen desempleo medio y a su vez la esperanza de vida más variada.
#ggplot(df.1,aes(df.1$Desem, df$esp_vida, color=)) + geom_quasirandom()
ggplot(df.1, aes(df.1$Desem, df$esp_vida, color=df.1$Desem)) + geom_quasirandom(dodge.width=1)